~今天要分享的是「決策樹介紹」~
決策樹是一種監督式機器學習方式,可用於解決迴歸跟分類的問題。
決策樹的基本原理就如同它的名字一樣,是透過一個樹狀的結構來進行決策,這個樹狀結構包含三個部分,分別是:
根節點:一般為包含最多資訊量的特徵
內部節點:可以想像成樹枝的分支,每個分支代表著特徵取值的不同
葉節點:為最後的預測結果
舉個利用決策樹分類男生跟女生的例子來說的話,根節點有可能為身高是否超過170,而內部節點可能包含頭髮長短、是否有鬍子、是否有喉結等特徵,來預測最後在葉節點的結果是男生還是女生。
[考試愛考觀念]
「資訊增益(Information Gain,簡稱IG)」與「Gini不純度」都是用在評估決策樹中每個節點的最佳分割特徵為何的指標,這兩個最大的差異在於若使用IG,當IG值越大,則經過節點後的數據會越趨向單一結果。通常IG的計算是基於熵(Entropy),當Entropy的值越小,則經過節點後的數據會越趨向單一結果;而若使用Gini不純度,當Gini值越小,表示經過節點後的數據會越趨向單一結果。
總結:Entropy與Gini值越小越好,IG值越大越好。